Dossier 


À 


Zoekmachines 


Het we 


In 1994 zag zoekmachine Lycos het levenslicht, en pronkte met 
wel 50.000 webdocumenten. Google heeft er vandaag meer dan 
2 miljard in zijn databanken zitten… Is het internet nu volledig in 
kaart gebracht, en hoe vind je het kaf tussen al dat koren? 


ON LINE 


meer dan 85% van de surfers maakt er 

heel frequent gebruik van, in de hoop 
op die manier snel een geschikt document uit 
het web te kunnen opdiepen. In de praktijk 
blijkt echter een haast even groot percentage 
surfers dikwijls gefrustreerd te zijn door de 
resultaten van deze zoekmachines. 


VAS zijn immens populair: 


De ideale hitlijst? 


Government 
Elections, Military, Law, Taxes 


Yahoo: moeder van alle webgidsen. 


beeldingen | D iegroepen| Gids 
Op het wob gezo end naar ana Resultaten 1-10 van circa 61,200,D00 Zookbewerking duurde 0.30 soconden 


Strikt genomen moeten we een on- 
Snel iets uitvissen over computers… Kunnen 61 derscheid maken tussen de webgid- 
miljoen hits volstaan? sen (of webdirectories) en de eigen- 
lijke zoekrobots. 
Vanwaar die frustratie? Ofwel is je zoekterm De eerste categorie is in hoofdzaak 
te breed en krijg je een ontiegelijk grootaan- het werk van een team van redac- 
tal hits En Ofwel tracht je het zoek- teurs. Die hebben een wel erg origi- 
terrein verder af te bakenen door meer ge- nele job: dagelijks het web afspeu- 
combineerde, specifieke trefwoorden inte ren naar zinvolle webdocumenten, 
bouwen, zoals ‘Nederland and (fietsen or wan- en die vervolgens in een hiërarchische 
delen) and not verkoop’… om dan plots vast structuur trachten onder te brengen: 
te stellen dat je zoekterm met moeite nogeni- van algemeen naar specifiek. Bezoe- 
ge hits oplevert! kers van zo’n webgids kunnen dan in die 
Hoe komt het nu toch dat die zoekmachines hiërarchie afdalen tot wanneer ze bij een bruik- 
el, je zo moeilijk de ideale hitlijst kunnen voor- bare pagina belanden. 
schotelen? Dat is aan twee oorzaken te wijten. 
Enerzijds ligt het aan de manier waarop zoek- 
achines hun gegevens op het web bij elkaar 
1, 1, in hun databanken stoppen en op De Antwerpse opera: een hele (Yahoo-)weg te 


Komt de bot terecht op een pagina 

die al in z’n databanken steekt, dan 
gaat hij na of die intussen is ge- 
wijzigd. Is dat zo, dan wordt de oude 
versie eruit gehaald en vervangen door 
de nieuwe. Zo’n bot gaat overigens met 
een ontstellende snelheid tewerk, zo- 
dat de databanken veel sneller aan- 
groeien dan die van een webgids. Je 
kan dus wel veel meer hits verwach- 
ten, maar het is zeer de vraag of 

daar veel bruikbare 

adressen tussen zitten. 

In de praktijk komen 

echter meer en meer 

hybride vormen voor. » 


IN DIT DOSSIER VERTELLEN WE JE 
ALLES OVER ZOEKEN OP INTERNET 


KAT-EN-MUIS 


Search Engine Optimization Tips 


Print all the tips! 


Hyperlinks 


). Headings 


SEO-tíips in overvloed op het web! 


Vooral commerciële websites hebben er natuur- 
lijk alle belang bij dat ze veel volk over de vloer 
krijgen: meer bezoekers betekent immers meer 
potentiële kopers. Een optimale rangschikking 
bij zoekmachines is de beste garantie om die be- 
zoekers te krijgen. Daar worden zelfs speciale 
firma’s voor ingehuurd, die de eigenaardighe- 
den van de belangrijkste zoekmachines op hun 
duimpje kennen. SEP (search engine positioning) 
of SEO (search engine optimization) wordt zo'n 
service wel genoemd. Sommige nemen het daar- 
bij niet al te nauw met de regels van de neti- 
quette, en trachten vaak met slinkse middelen de 
zoekrobots te misleiden. 


W/ 


Een klassiek middeltje is natuurlijk het opnemen 
van misleidende trefwoorden en omschrijvingen 
in speciale codes van de webpagina. Maar soms 
worden ook heel aantrekkelijke woorden in wit- 
te tekst op een witte achtergrond onderaan de 
webpagina opgenomen, of in een minuscuul 
klein lettertype: niet zichtbaar voor mensen dus, 
maar wel voor zoekrobots. 

Haast alle zoekrobots zijn intussen echter gewa- 
pend tegen zulke misleidingen en straffen die af 
met een slechtere rangschikking in de hitlijsten. 
Maar er zijn natuurlijk ook meer geavanceerde 
technieken… Cloaking (letterlijk: in een mantel 
hullen) is bijvoorbeeld erg populair. Sitebouwers 
optimaliseren eerst een bepaalde webpagina 
voor de belangrijkste zoekrobots, en plaatsen de 
verschillende versies op een webserver. Klopt op 
een bepaald moment een zoekrobot aan, dan 
merkt een programmaatje dat op die webserver 
draait dat op — bijvoorbeeld aan de hand van 
het IP-adres van de zoekrobot, en zal automa- 
tisch de webpagina worden opgediept die voor 
die bepaalde zoekrobot was geoptimaliseerd. 
Een menselijke bezoeker daarentegen krijgt de 
‘normale! webpagina te zien… Intussen zijn 
zoekrobots ook al bezig met dergelijke cloaking- 
technieken te counteren! Het kat-en-muisspelle- 
tje kan dus nog wel even doorgaan… 
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ON LINE 


Dossier 


Zo worden de hitlijsten van Google samen- 
gesteld uit gegevens die door zijn bot werden 
aangebracht, maar tegelijk tapt Google ook 
dankbaar uit een ander vaatje: de databanken 
van een rasechte webgids, met name die van 
Open Directory [ http://dmoz.org ]. 


Van pagina naar hitlijst 


De samenstelling van de hitlijsten bij de di- 
verse zoekmachines wordt dus voor een groot 


AltaVista: ook niet vies van sponsoring… 
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ONZICHTBARE PAGINAS … 


deel bepaald door de hoeveelheid pagina’s die 
ze kunnen bezoeken. 

Maar datis zeker niet de enige factor. Zo mo- 
gelijk nog belangrijker is hoe de zoekmachi- 
nes die pagina’s precies verwerken. Welke on- 
derdelen van de webpagina's worden bij- 
voorbeeld ingelezen, en welke woorden uit die 
onderdelen worden vervolgens geïndexeerd. 
en als opzoekbaar trefwoord in de databanken 
geplaatst? Zo hechten ongeveer alle zoekro- 
bots veel belang aan paginatitels en aan de eer- 
ste paar regels tekst op de pagina, maar niet 
alle zoekrobots lezen bijvoorbeeld ook de tekst 
in die verschijnt als je met de muis over een 
afbeelding gaat (ALT-tags). Verder zijn er ook 
speciale codes op een webpagina die een ge- 
wone bezoeker niet te zien krijgt, maar die 
eventueel wel door een zoekrobot kunnen wor- 
den ingelezen. Zo kan de ontwerper van een 
webpagina zelf een eigen omschrijving (de- 
scription) en trefwoorden (keywords) invul- 
len die van toepassing zijn op z'n webpagina. 
De meeste zoekrobots houden ook rekening 
met deze speciale codes. Google is hierop een 
notoire uitzondering: heel wat sitebouwers 
misbruiken deze codes namelijk. Ze namen 
bijvoorbeeld heel populaire trefwoorden (als 
sex, mp3, enz.) op, in de hoop op die manier 
via de zoekrobots meer bezoekers naar hun 


pagina te lokken. In ons kaderstukje vind je 
trouwens nog een aantal andere slinkse truc- 
jes waarmee men zoekmachines om de tuin 
— en naar eigen pagina’s — tracht te leiden. 
Twee elementen spelen dus al een belangrij- 
ke rol bij de samenstelling van hitlijsten: hoe- 
veel en welke pagina’s worden bezocht, en 
welke woorden van die pagina’s worden geïn- 
dexeerd. Maar er is nog een derde hond in het 
kegelspel: hoe rangschikken zoekrobots de 
gevonden resultaten in de hitlijsten? Welke 
adressen komen bijvoorbeeld bovenaan de hit- 
lijst te staan als je als trefwoord ‘computer’ 
opgeeft? Misschien wel de pagina waar dat 
woord het meest voorkwam? Of de pagina 
waarin dat woord in de url of in de paginatitel 
stond? Of misschien wel de pagina van dege- 
ne die het meeste geld op tafel legde: ‘ge- 
sponsorde links’ wordt zo’n praktijk ver- 
bloemd omschreven, en steeds meer zoek- 
machines blijken hieraan toe te geven. 


De aard van het 
(zoek)beestje 


De ene zoekmachine is dus de andere niet: 
hun bots bezoeken niet alleen verschillende 
webpagina's, de indexering kan ook anders 
zijn en de algoritmen die de rangschikking 
van de resultaten in de hitlijsten aansturen, 
kunnen ook al verschillen! En alsof dat nog 
niet genoeg was, komt daar nog bij dat alle 
zoekmachines een aantal inherente tekortko- 
mingen hebben! 

Hoe snel de bots zich ook een weg kunnen 
banen door het web, ze kunnen nooit een up- 
to-date weergave zijn van alle webdocumen- 
ten! Het WWW is namelijk erg dynamisch: 
dagelijks komen er nieuwe pagina’s bij en ver- 
dwijnen weer andere. Sommige zoekrobots 
trachten dit euvel min of meer op te lossen 
door dagelijks langs te lopen bij de webpagi- 
na’s van grote en bekende nieuwssites (als die 
van CNN) en die opnieuw te indexeren. 
Maar het grootste manco van alle zoekma- 
chines is wel dat ze schromelijk onvolledig 
zijn, en dat brengt ons meteen tot de tweede 
grote factor die zoveel surfers vaak misnoegd 
naar de hitlijsten doet turen… 


Het diepe web 


Wie dacht dat kleppers als Google intussen zo- 
wat alle informatiebronnen op het web heb- 
ben bijgebeend, moeten we flink teleurstellen! 
Naar schatting zou Google intussen slechts 1/4 
van de makkelijk toegankelijke webpagina's 
hebben verwerkt, en volgens sommige bron- 
nen (zoals BrightPlanet) zouden de meer ver- 
borgen webpagina’s — het zogenaamde diepe 
web - maar liefst 5oo keer meer informatie be- 
vatten. Anders gezegd: Google zou in dat ge- 
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Discussiegroepen: een gigantisch archief bij Google. 
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Copernic 2001: verschillende zoekmachines 
simultaan aanspreken. 
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Vernieuwen Start Zoeken Favorieten Geschiedenis E-mail Afdrukken 
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Ico mputer 


PEOPLE WHO DID THIS SEARCH ALSO SEARCHED FOR 


SPONSORED SEARCH LISTINGS » 

1 - Order any Dell Horne Systern on or before July 31st and you'll automatically 
be entered to win $50,000, No purchase necessary, Click for offer. 

2. - Buy a select Gateway® desktop or notebook this weekend (Friday, Saturady, 
Sunday) and receive free shipping. For a limited time - offer expires. 

3. - Tech Depot by Office Depot lets you choose from over 60,000 low- 


priced computer and technology products, all with competitive shipping... 
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Dynamische, databankgestuurde webpagina's: lastige klanten! 
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Teoma: eigen zoekcategorieën. 
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De geavanceerde opties van zoekrobot AltaVista. 


[ www.teoma.com |] 


vista [Web) image Audio 


Directory _N 


hardware 


New! Refine your search with AltaVista Prisma click a term to focus yoursearch or click >= to replace your search. 


AltaVista Prisma: pri(s)ma hulp? 


shure makel Berend Ma eere hant vn de makreel Meeg de 
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Vivisimo: zoekcategorieën on the fly! 


[ wwuvw.vivisimo.com ] 


Family Filteroff Settings Help 


[Go back] Help 


Ex 
Bement Gemeten Beet Enten Epa beo 


[ www.invisibleweb.com ] 
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Three easy steps 1e Andang the Indocmatien you 
want 
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The Invisible Web: toch niet zo onzichtbaar? 
[ www.lexibot.com ] 
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LexiBot: tot in de diepten van het web? 


